Skip to content

Árvore de decisão

Objetivo

O dataset Customer Churn – reúne dados de clientes de uma operadora de telecom com o objetivo: prever se o cliente vai cancelar (Churn) ou permanecer.

Descrição das colunas (dicionário de dados)

customerID: ID do cliente

Gender: Gênero do cliente (feminino, masculino)

SeniorCitizen: Se o cliente é idoso ou não (1, 0)

Partner: Se o cliente tem cônjuge/parceiro (Sim, Não)

Dependents: Se o cliente possui dependentes (Sim, Não)

Tenure: Número de meses que o cliente permaneceu na empresa

PhoneService: Se o cliente possui serviço de telefonia (Sim, Não)

MultipleLines: Se o cliente possui múltiplas linhas (Sim, Não, Sem serviço de telefonia)

InternetService: Provedor de internet do cliente (DSL, Fibra óptica, Sem internet)

OnlineSecurity: Se o cliente possui segurança online (Sim, Não, Sem serviço de internet)

OnlineBackup: Se o cliente possui backup online (Sim, Não, Sem serviço de internet)

DeviceProtection: Se o cliente possui proteção de dispositivos (Sim, Não, Sem serviço de internet)

TechSupport: Se o cliente possui suporte técnico (Sim, Não, Sem serviço de internet)

StreamingTV: Se o cliente possui streaming de TV (Sim, Não, Sem serviço de internet)

StreamingMovies: Se o cliente possui streaming de filmes (Sim, Não, Sem serviço de internet)

Contract: Tipo de contrato do cliente (Mês a mês, Um ano, Dois anos)

PaperlessBilling: Se o cliente utiliza fatura digital (Sim, Não)

PaymentMethod: Método de pagamento do cliente (Cheque eletrônico, Cheque enviado, Transferência bancária — automática, Cartão de crédito — automático)

MonthlyCharges: Valor cobrado mensalmente do cliente

TotalCharges: Valor total cobrado do cliente

Churn: Se o cliente cancelou (Sim ou Não)

Pré Processamento

1) padronização de tipos

Normalização de TotalCharges para numérico

2) Tratamento de valores faltantes

Numéricos (tenure, MonthlyCharges, TotalCharges): imputação pela mediana.

Categóricos (gender, Partner, Dependents, PhoneService, MultipleLines, InternetService, OnlineSecurity, OnlineBackup, DeviceProtection, TechSupport, StreamingTV, StreamingMovies, Contract, PaperlessBilling, PaymentMethod, Churn): imputação pela moda (valor mais frequente).

customerID gender SeniorCitizen Partner Dependents tenure PhoneService MultipleLines InternetService OnlineSecurity OnlineBackup DeviceProtection TechSupport StreamingTV StreamingMovies Contract PaperlessBilling PaymentMethod MonthlyCharges TotalCharges Churn
0899-WZRSD Male 0 No No 56 Yes Yes Fiber optic Yes No No Yes Yes Yes Month-to-month Yes Mailed check 105.35 5794.45 No
7940-UQQUG Female 0 Yes Yes 64 Yes Yes Fiber optic Yes No No Yes Yes Yes One year Yes Bank transfer (automatic) 104.4 6721.6 No
5394-MEITZ Female 0 Yes Yes 60 Yes No DSL No Yes Yes Yes Yes Yes Two year Yes Bank transfer (automatic) 80.6 4946.7 No
2898-LSJGD Female 0 Yes Yes 21 No No phone service DSL Yes No Yes No Yes Yes One year Yes Electronic check 55.95 1157.05 Yes
6258-NGCNG Male 0 No No 7 Yes Yes No No internet service No internet service No internet service No internet service No internet service No internet service Month-to-month No Mailed check 23.5 173 No
0650-BWOZN Female 1 No No 18 Yes No Fiber optic No Yes No No No No Month-to-month Yes Electronic check 73.55 1359.45 No
7693-LCKZL Male 0 Yes Yes 5 Yes Yes Fiber optic No Yes No No No No Month-to-month Yes Electronic check 80.15 385 Yes
2612-RRIDN Male 0 No No 4 Yes No Fiber optic No No No No Yes No Month-to-month Yes Electronic check 81 340.85 Yes
2599-CIPQE Male 0 Yes Yes 71 Yes No Fiber optic Yes Yes Yes Yes Yes Yes Two year No Credit card (automatic) 109.3 7782.85 No
7879-CGSFV Male 0 No No 55 Yes No Fiber optic Yes Yes No No Yes Yes One year Yes Mailed check 100.9 5552.05 No

Divisão de dados

Os dados foram divididos em 70% para treino e 30% para validação, com o objetivo de evitar overfitting e obter uma estimativa mais fiel de desempenho.


Feature Importances:

Feature Importance
18 TotalCharges 0.213633
17 MonthlyCharges 0.210126
14 Contract 0.165401
4 tenure 0.117384
8 OnlineSecurity 0.047010
16 PaymentMethod 0.036239
0 gender 0.026374
7 InternetService 0.025211
2 Partner 0.024761
15 PaperlessBilling 0.020355
1 SeniorCitizen 0.020015
3 Dependents 0.019258
6 MultipleLines 0.018562
13 StreamingMovies 0.013355
10 DeviceProtection 0.012722
11 TechSupport 0.011390
9 OnlineBackup 0.010068
12 StreamingTV 0.005640
5 PhoneService 0.002496
Accuracy: 0.73 2025-08-31T23:18:22.456942 image/svg+xml Matplotlib v3.10.5, https://matplotlib.org/

Avaliação do modelo

O modelo teve accuracy de 74% no conjunto de validação. Para um accuracy maior é necessario análise das variáveis com maior correlação para serem utilizadas no treinamento do modelo